พื้นฐานปัญญาประดิษฐ์สร้างสรรค์ในภาษาพายธอน: สามเสาหลักของปัญญาประดิษฐ์สร้างสรรค์

จินตนาการโลกที่ปัญญาประดิษฐ์ไม่เพียงแค่รู้จักแสงอาทิตย์ตกดิน แต่ยัง วาดภาพขึ้นมาจากความว่างเปล่านั่นคือการเปลี่ยนแปลงแนวคิดจาก แบบจำลองแยกประเภท—ซึ่งเน้นการคำนวณความน่าจะเป็น $p(output|input)$ เพื่อติดป้ายชื่อข้อมูลที่มีอยู่ ไปสู่โลกอันกว้างขวางของปัญญาประดิษฐ์สร้างสรรค์ เราได้ก้าวข้ามขอบเขตของอดีตมาสู่การสร้างแบบจำลองของโครงสร้างข้อมูลพื้นฐานที่แท้จริง การแจกแจงข้อมูลพื้นฐาน។

กำหนดแนวทางสถาปัตยกรรม

ระบบจำแนกของเราถูกครอบงำโดยกลยุทธ์ทางคณิตศาสตร์สามแบบที่แตกต่างกัน แต่ละแบบมีจุดแข็งเฉพาะสำหรับ การสร้างสรรค์แบบหลายมิติ และ การสร้างสรรค์ภาพ:

เครือข่ายแอนติเวิร์สเชียลสร้างสรรค์ (GANs): การแข่งขันระดับสูงระหว่างสองเครือข่ายประสาทเทียม — ผู้สร้าง (นักปลอม) และผู้ตรวจสอบ (นักสืบ) ผู้สร้าง (นักปลอม) และผู้ตรวจสอบ ผู้ตรวจสอบ (นักสืบ) การโต้ตอบเชิงขัดแย้งนี้ การโต้ตอบเชิงขัดแย้ง บังคับให้ผู้สร้างสร้างเนื้อหาที่ไม่สามารถแยกแยะได้มากขึ้นเรื่อย ๆ
โมเดลการกระจาย: กระบวนการค้นหาความเป็นระเบียบภายในความวุ่นวาย โมเดลเหล่านี้เรียนรู้โดย เพิ่มและลบเสียงรบกวนทีละขั้นตอน จากข้อมูล จนสุดท้ายสามารถสร้างภาพรวมที่มั่นคงจากสิ่งที่ไม่มีการเคลื่อนไหวได้
ทรานสฟอร์เมอร์แบบออโตเรเกรสซีฟ: สถาปนิกแห่งลำดับ โมเดลเช่น ทรานสฟอร์เมอร์แบบสร้างสรรค์ที่ฝึกไว้ล่วงหน้า (GPT) ทำงานโดย คาดการณ์โทเค็นถัดไป อิงจากบริบทของทุกสิ่งที่เกิดขึ้นมาก่อนหน้า สร้างเรื่องราวและโครงสร้างที่สอดคล้องกันในระยะยาว

ความสัมพันธ์เชิงสถาปัตยกรรม

การค้นพบสมัยใหม่แทบไม่ใช้เสาหลักใดเสาหลักหนึ่งอย่างโดดเดี่ยว ระบบที่เหมือนกับ Stable Diffusion ใช้ ทรานสฟอร์เมอร์ เพื่อเข้าใจคำแนะนำข้อความของคุณ และ การกระจาย กระบวนการเพื่อแสดงผลพิกเซลภาพ โดยมักใช้ประสิทธิภาพของพื้นที่เชิงลึกที่พบใน ตัวแปลงอัตโนมัติแบบแปรผัน (VAEs)។

คำถาม 1

สถาปัตยกรรมสร้างสรรค์แบบใดที่มีลักษณะการแข่งขันระหว่างผู้สร้างและผู้ตรวจสอบ?

ทรานสฟอร์เมอร์แบบออโตเรเกรสซีฟ

โมเดลการกระจาย

เครือข่ายแอนติเวิร์สเชียลสร้างสรรค์ (GANs)

ตัวแปลงอัตโนมัติแบบแปรผัน (VAEs)

คำถาม 2

ในบริบทของทรานสฟอร์เมอร์ เช่น GPT กลไกหลักของการสร้างคืออะไร?

การคาดการณ์โทเค็นถัดไปจากความน่าจะเป็นของบริบท

การลบเสียงรบกวนแบบเกาส์เซียนจากภาพเบลอ

การจับคู่ข้อมูลนำเข้าโดยตรงกับป้ายกำกับ $y$